Hadoop存储与计算分离实践

简介: 本文PPT来自阿里云E-MapReduce团队的余根茂于10月16日在2016年杭州云栖大会上发表的《Hadoop存储于计算分离实践》。

本文PPT来自阿里云E-MapReduce团队的余根茂于10月16日在2016年杭州云栖大会上发表的《Hadoop存储于计算分离实践》。

Hadoop部署一般可大致分为传统集群部署和云上集群部署。具体而言,对于传统集群部署,存储和计算是重点,计算能力加上存储能力大致等同于这个集群的能力。传统集群往往包含很多数据“中心”,并以集群混部的方式部署。在理想情况下,一个集群系统往往希望产生更少的数据迁移,并且达到更高的资源利用率。然而在现实中,当带宽逐渐不再是稀缺资源,磁盘不在是承载计算的主战场时,计算和存储这两者之间便会随之产生木桶效应,造成集群的资源浪费。同时,随着人们对于本地数据和远程数据对比逐渐深入,混部的劣势开始逐渐暴露出来。这些劣势包括更大的集群资源浪费、更差的集群扩展性以及不再万能的数据本地化,并且引发了人们对于混合部署的合理性的探讨。

另外一种更新颖的方式是云上集群部署方式。它利用了现有的完备的云计算基础设施在云上集群部署,并且可以达到“一键部署,即开即用”的程度。当然,云上部署也面临储存成本高、储存质量下降等新的挑战。所以,一种新的替代方案--Hadoop+OSS出现了,这种方案基于OSS的分离部署,利用Hadoop对OSS的支持,进行了针对性的优化,未来系统将主要针对小文件预取和缓存和元数据视图系统进行优化。目前,这一方案经过测试,性能达到预期要求,并且还能节省不少的计算成本和存储成本。

01947e6c6129ae0c91d78e33a17c9ef799d60921

89168bd80cda084edc01b31d697101c05db6f1e5

45317c8c2868d89aa582af60f4de39d2c1303acf

decc320464c26f5333dc96517a300b0b59812d35

0a877abdf6122ceb84449829e29f17c9c60981af

112fff5c8a809a7ff5c9db0a7cfee4aa48dded32

925d03073e6693c629104398209cd469126be656

4f1bc8e0247e9853d217140da6c3faae8bbb9db8

6150c47b8493d5882fab3ae078efad33534027c7

c75c2df084e8dd6754c06e6dc422a47f5021af0f

9e9b99fc87707d2787e5dc425a7809ae5edecf2c

182a1ef2bb78140f7c61e81a0909e580dda67515


a2d8bf0f90179afa815e2a09a362fbaf9a6e61f9

d2a88367837d81d127d2d9db98b847f55f5a6e5c

ae72eb05f289760dffb17fcdf9e9acf1d71e5bf3


相关文章
|
15天前
|
存储 分布式计算 Hadoop
Hadoop数据块分散存储NameNode管理
【4月更文挑战第17天】Hadoop是一个开源的分布式计算框架,依赖HDFS进行分布式存储。文件被分割成数据块分散在DataNode上,NameNode负责元数据管理和协调,确保数据可靠性。NameNode的高可用性配置能防止单点故障,保证系统稳定性。这套机制支持高效、可靠和可扩展的大数据存储与访问。
16 3
|
26天前
|
存储 分布式计算 Hadoop
Hadoop【基础知识 01】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)
【4月更文挑战第3天】Hadoop【基础知识 01】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)
40 3
|
15天前
|
存储 分布式计算 Hadoop
Hadoop数据块分散存储分散存储
【4月更文挑战第17天】Hadoop是一个开源分布式计算框架,核心是HDFS,用于高可靠性和高吞吐量的大规模数据存储。文件被分割成数据块,分散存储在不同节点,每个块有多个副本,增强容错性。Hadoop根据数据位置将计算任务分发到相关节点,优化处理速度。HDFS支持超大文件,具备高容错性和高数据吞吐量,适合处理和分析海量数据。
18 2
|
15天前
|
存储 分布式计算 Hadoop
Hadoop数据块分散存储数据块大小
【4月更文挑战第17天】Hadoop的 数据块大小影响文件在HDFS中的切分与存储。默认值为64MB、128MB或256MB,可按需调整。选择数据块大小需平衡访问模式、存储效率、网络带宽和磁盘I/O。大块减少元数据,但可能降低读取效率;小块提高读取效率,却增大元数据和网络开销。应用需求决定块大小,如小文件读取频繁则选小块,大文件存储选大块。设置前需全面考虑集群需求,遵循官方文档和最佳实践。
16 3
|
26天前
|
存储 分布式计算 监控
Hadoop【基础知识 01+02】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
【4月更文挑战第3天】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
74 2
|
14天前
|
存储 分布式计算 Hadoop
Hadoop确定新的存储目录
【4月更文挑战第18天】在Hadoop中设置新存储目录,需创建数据存储目录(如`/data/hadoop/newdata1`、`newdata2`),修改`hdfs-site.xml`配置文件,指定新目录(如`dfs.namenode.name.dir`、`dfs.datanode.data.dir`)。接着重启Hadoop服务,验证新目录是否生效。注意不同环境可能有差异,参照官方文档操作,并确保数据备份、安全性和可扩展性。
15 3
|
19天前
|
存储 分布式计算 负载均衡
Hadoop数据块分散存储与副本创建
【4月更文挑战第15天】Hadoop是一个用于大数据处理的分布式框架,其核心特性包括数据块的分散存储和副本创建。数据块默认为128MB,存储在不同DataNode上,由NameNode管理元数据。每个数据块通常有3个副本,分置于不同节点,确保容错性和可靠性。当节点故障时,Hadoop能自动恢复并根据负载平衡副本位置。这种设计优化了计算资源利用,实现并行处理和高可用性。
21 3
|
21天前
|
存储 分布式计算 监控
Hadoop冗余数据存储
【4月更文挑战第13天】Hadoop的HDFS分布式文件系统通过数据块划分、冗余存储(副本创建)和多样化存储类型提升可靠性与扩展性。NameNode监控副本数量,确保数据安全。使用数据压缩算法节省空间,数据本地化优化提高效率。支持并行处理,实现高效大规模数据处理。
19 1
|
5月前
|
存储 分布式计算 资源调度
[hadoop3.x]HDFS中的内存存储支持(七)概述
[hadoop3.x]HDFS中的内存存储支持(七)概述
52 0
|
5月前
|
存储 分布式计算 Apache
✨[hadoop3.x]新一代的存储格式Apache Arrow(四)
✨[hadoop3.x]新一代的存储格式Apache Arrow(四)
63 1